https://adcloud.compbio.ulaval.ca/index.php/s/SdDrKrkbq9QHCLn
Pour les protéines, miRNA et gènes, on possède les données de 150 échantillons. On a ensuite 142 variables pour les protéines, 184 pour les miRNA et 200 pour les gènes.
Figure 1.1: Distribution du coefficient de variation dans le bloc mirna
Figure 1.2: Distribution du coefficient de variation dans le blocs mrna
Figure 1.3: Distribution du coefficient de variation dans le bloc protéine
On peut voir sur les histogrammes que le type de données possédant le plus de variabilité est le type protéine. En effet, sa variabilité est comprise entre -100 et 250, même si on peut observer qu’elle est comme les autres centrée vers 0.
En supprimant les données les plus variantes (\(\lvert{C_v}\rvert \geq 0.15\)), il ne reste que 142 protéines, 174 gènes et 82 miRNA.
Le gène avec le plus grand coefficient de variance de notre jeu de données est PLCD4. La protéine codée par ce gène peut jouer un rôle dans la croissance et la prolifération cellulaire. Son expression peut donc notamment être un marqueur de cancer. PLCD4 est situé sur le chromosome 2, et sa longueur est de 30749 nucléotides. La protéine correspondant à ce gène est Q9BRC7, d’une longueur de 762 nucléotides, mais n’est pas contenue dans notre jeu de données.
L’ACP est une méthode d’analyse statistique et de réduction des données, permettant de calculer des composantes maximisant la variabilité des données étudiées. On peut ensuite évaluer si les composantes calculées permettent de caractériser correctement la variabilité des données (par exemple s’il est possible de retrouver certains groupes séparés distinctement par les composantes), et d’identifier les variables les plus importantes participant à ces composantes.
## Eigenvalues for the first 10 principal components, see object$sdev^2:
## PC1 PC2 PC3 PC4 PC5 PC6
## 4601.980533 46.705472 21.519114 12.661752 9.796326 8.634070
## PC7 PC8 PC9 PC10
## 7.445820 6.180146 5.062428 4.265798
##
## Proportion of explained variance for the first 10 principal components, see object$explained_variance:
## PC1 PC2 PC3 PC4
## 0.956078087 0.009703231 0.004470674 0.002630525
## PC5 PC6 PC7 PC8
## 0.002035222 0.001793759 0.001546896 0.001283948
## PC9 PC10
## 0.001051738 0.000886235
##
## Cumulative proportion of explained variance for the first 10 principal components, see object$cum.var:
## PC1 PC2 PC3 PC4 PC5
## 0.9560781 0.9657813 0.9702520 0.9728825 0.9749177
## PC6 PC7 PC8 PC9 PC10
## 0.9767115 0.9782584 0.9795423 0.9805941 0.9814803
##
## Other available components:
## --------------------
## loading vectors: see object$rotation
## Other functions:
## --------------------
## plotIndiv, plot, plotVar, selectVar, biplot
Figure 2.1: Explication de la variabilité par les différentes composantes - avec center & scale false
##
## Call:
## tune.pca(X = mrna.c, ncomp = 50, center = F, scale = F)
##
## for all principal components, see object$sdev, object$explained_variance and object$cum.var
Au vu de l’histogramme:
## Eigenvalues for the first 10 principal components, see object$sdev^2:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
## 33.720079 23.308702 9.887708 8.601462 7.448849 5.701675 4.198577 3.765421
## PC9 PC10
## 3.265814 3.045500
##
## Proportion of explained variance for the first 10 principal components, see object$explained_variance:
## PC1 PC2 PC3 PC4 PC5
## 0.19379356 0.13395806 0.05682591 0.04943369 0.04280948
## PC6 PC7 PC8 PC9 PC10
## 0.03276825 0.02412975 0.02164035 0.01876904 0.01750288
##
## Cumulative proportion of explained variance for the first 10 principal components, see object$cum.var:
## PC1 PC2 PC3 PC4 PC5
## 0.1937936 0.3277516 0.3845775 0.4340112 0.4768207
## PC6 PC7 PC8 PC9 PC10
## 0.5095889 0.5337187 0.5553590 0.5741281 0.5916310
##
## Other available components:
## --------------------
## loading vectors: see object$rotation
## Other functions:
## --------------------
## plotIndiv, plot, plotVar, selectVar, biplot
Figure 2.2: Explication de la variabilité par les différentes composantes - avec center & scale true
Les 30 premières composantes expliquent 80% de la variabilité et elles sont donc sélectionnées.
Figure 2.3: Projection des variables (ici les gènes) selon les composantes 1 et 2 d’une ACP
Les dix variables contribuant le plus à l’axe 1 sont : ZNF552, C4orf34, KDM4B, FUT8, CCNA2, TTC39A, LRIG1, SEMA3C, PREX1, SLC43A3. Les graphiques représentant les variables sont actuellement très difficilement lisibles, on doit donc afficher les contributions des variables aux composantes à l’aide d’une commande.
Figure 2.4: Projection des individus selon les composantes 1 et 2 d’une ACP
On peut observer que la PCA sépare de façon assez distincte les individus des trois groupes selon les 2 premières composantes, malgré des frontières assez floues entre les groupes.
Les gènes sélectionnés par la spca pour la première composante sont : KDM4B, ZNF552, PREX1, TTC39A, STC2, LRIG1, C4orf34, MTL5, FUT8, SLC19A2. Pour la seconde composante principale, on a retenu APBB1IP, NCF4, FLI1, C1orf162, CSF1R.
Figure 2.5: Projection des gènes principaux selon les composantes 1 et 2 d’une Sparse-PCA
La PLS est une méthode statistique permettant de traiter différentes matrices de données. Contrairement à l’ACP, qui ne peut analyser qu’un jeu de données à la fois, on va ici pouvoir dégager des composantes - dites latentes - maximisant la covariance entre nos deux matrices d’entrée. Sur notre analyse, on va ainsi pouvoir dégager via les composantes les possibles corrélations entre l’expression génique et l’expression protéique.
Figure 2.6: Projection des individus colorés en fonction de leur groupe selon les composantes 2 et 3 d’une PLS
Figure 2.7: Arrow plot des individus colorés en fonction de leur groupe selon les composantes 1 et 3 d’une PLS
Les variables retenues pour la troisième composante sont C1QB, Caspase.7_cleavedD198.
Figure 2.8: Matrice de corrélation entre l’expression des gènes et l’expression des protéines calculée à partir d’une Sparse-PLS
Figure 2.9: Network plot des gènes et protéines les plus corrélés (|p| > 0.65) à partir des résultats d’une SPLS
Sur la spls, on peut observer 7 clusters différents possédant une corrélation supérieure à 0.65 ou inférieure à -0.65 (3 protéines et 4 gènes).
Figure 2.10: Résultats d’une block pls sur les protéines, mrna et mirna
Figure 2.11: Résultats d’une block pls sur les protéines, mrna et mirna
Figure 2.12: Résultats d’une block pls sur les protéines, mrna et mirna
Figure 2.13: Résultats d’une block spls sur les protéines, mrna et mirna
Figure 2.14: Résultats d’une block spls sur les protéines, mrna et mirna
Figure 2.15: Résultats d’une block spls sur les protéines, mrna et mirna
Les variables sélectionnées sur la première composante sont:
Figure 2.16: Projection des individus selon les composantes 1 et 2 d’une PLS-DA
Par rapport à la PCA, on peut considérer que la PLS-DA permet de mieux retrouver nos trois groupes d’échantillons sur ce graphique par rapport aux deux premières composantes principales. En effet, les trois groupes sont ici clairement distincts dans l’espace du graphique, et les frontières entre groupes sont bien plus marquées. Il semblerait donc que la variabilité des données calculée par la PLS-DA permet de mieux expliquer les différences génétiques entre les groupes de nos échantillons.
Figure 2.17: Projection des individus selon les composantes 1 et 2 d’une block spls-da réalisée sur les gènes, mirna et protéines
Figure 2.18: Projection des individus selon les composantes 1 et 2 d’une block spls-da réalisée sur les gènes, mirna et protéines après sélection d’un nombre limité de variables pour chaque jeu de données
Figure 2.19: Circosplot des protéines, mirna et mrna avec un cutoff de 0.5
Nous travaillons ici sur les effets de l’exposition à des polluants sur la santé des ours polaires. On a accès pour une vingtaine de trios (un mère et sa portée de deux enfants) à deux types de données omiques:
Projection on Latent Structures
pls.result = pls(X = mrna.c, Y = prot.c, ncomp = 3)
La PLS est une méthode statistique permettant de traiter différentes matrices de données. Contrairement à l’ACP, qui ne peut analyser qu’un jeu de données à la fois, on va ici pouvoir dégager des composantes - dites latentes - maximisant la covariance entre nos deux matrices d’entrée. Sur notre analyse, on va ainsi pouvoir dégager via les composantes les possibles corrélations entre l’expression génique et l’expression protéique.
transcriptomique Groupe témoin échantillon sans pollution ? traiter différemment la mère et les enfants attention variations entre famille évaluer la variance de nos échantillons exposition mère impacte enfants ?
analyse en heatmap (spls, cim -> non, que transcriptome) P.heatmap acp ? variables repérer les points communément sur ou sous exprimés
volcano plot p-value up down des molécules classification diversité alpha beta (évaluation) krone ? (semble pas ouf)
Nous travaillons ici sur des microbiotes de souris ayant subi ou non un traitement. On a accès pour chaque souris à deux types de données omiques : métagénomiques (données 16S du microbiote) et métabolomiques (décompte de molécules du métabolome). Donc -> pls ou pls-da covariance entre data métagénome et métabolome analyse individuelle sur métagénome -> diversité alpha / béta, composition métagénome
Il est aussi nécessaire dans ce cas d’effectuer une analyse multiomique. Les différentes informations apportées par les analyses simple-omique nous permettent de mettre en lumière les différences entre les groupes de souris, mais il pourrait être intéressant dans un second temps d’évaluer la covariance de ces données. En effet, les données métagénomiques nous permettent de connaître la composition du microbiote des souris en terme de micro-organisme, et les données métabolomiques donnent une analyse sur la composition des molécules métaboliques du milieu intestinal probablement. Pour déterminer plus précisément les impacts du traitement sur le milieu intestinal, il est donc nécessaire d’utiliser l’outil de “Projection on Latent Structure”. On va ainsi pouvoir trouver les composantes maximisant la covariance entre métagénomique et métabolomique. On peut ainsi effectuer une sparse PLS sur les souris traitées d’un côté et non traitées de l’autre. Un cim plot pourra ainsi être utilisé pour visualiser la variance entre nos différentes variables, ainsi qu’un network plot pour représenter les 16S et les métabolites les plus corrélés. Ces deux représentations graphiques peuvent être utilisées pour les souris traitées et non traitées, pour ensuite comparer nos deux résultats, et ainsi évaluer si le traitement a une influence sur la covariance entre les données omiques.